【新智元導讀】大模型能否預測未來?UniPat AI建構了一套完整的預測智能基礎設施,Echo,包含動態評測引擎、面向未來事件的訓練範式和預測專用模型EchoZ-1.0。在其公開的General AI Prediction Leaderboard上,EchoZ-1.0穩居第一,並在與Polymarket人類交易市場的直接對比中展現出顯著優勢。過去一年,預測能力越來越受到模型廠商的重視。但預測領域有一個根本性的驗證難題:你說你能預測未來,怎麼證明?發佈時的demo無法追溯,事後公佈的案例存在選擇性偏差,通用基準測試衡量的是語言理解和推理能力,跟真實預測是兩碼事。UniPat AI近日發佈的Echo系統,試圖用一套完整的基礎設施來回答這個問題。Echo由三個緊密耦合的元件構成:一個持續運轉的動態評測引擎,一套面向未來事件的後訓練流程(Train-on-Future),一個未來可能的AI原生預測API。官網:https://echo.unipat.ai/ Blog:https://unipat.ai/blog/Echo核心模型EchoZ-1.0是第一個在Train-on-Future範式下端到端訓練的大語言模型。在General AI Prediction Leaderboard 上(2026年3月資料),EchoZ-1.0以Elo 1034.2排名第一,領先 Google的Gemini-3.1-Pro(1032.2)和Anthropic的Claude-Opus-4.6(1017.2)。排行榜涵蓋12個模型,覆蓋政治、經濟、體育、科技、加密貨幣等7個領域,活躍題目超過1000道。EchoZ在排名魯棒性測試中穩定第一排名本身只是一個快照,排名的穩定性更值得關注。部落格中披露了一組σ參數敏感性測試:調整Elo框架中的σ參數(控制Brier Score差異向勝率的轉化強度)從 0.01到0.50共9個取值,重新計算全部模型排名。這個參數簡單來說,就是控制「模型之間表現差距」會被放大到什麼程度。EchoZ在全部9個分組均保持第一,是唯一排名未發生任何波動的模型。作為對比,GPT-5.2的排名在第2到第9之間波動過8個位次。更有說服力的一個細節是,EchoZ的競爭對手不僅有頂級大模型,還有預測市場上真實投入資金的人類交易者的聚合判斷,EchoZ的Elo分數顯著高於這條基線。與此同時,Echo官網公開了所有預測問題、模型輸出的機率分佈和最終結算結果,任何人都可以回溯驗證。三個層面的可驗證性疊加在一起(動態排行榜、實盤市場對照、全量資料公開),構成了Echo與此前各種「AI 預測」最根本的區別。那麼,EchoZ對人類預測者的實際優勢有多大?Unipat AI給出了一組分層對比:將EchoZ與人類市場在同一預測批次中的同一問題上進行比較,基於Brier Score計算勝率,按領域、預測期限和市場不確定性三個維度展開:政治與治理領域:EchoZ勝率63.2%長期預測(7天以上):EchoZ勝率59.3%市場不確定區間(人類信心55%-70%):EchoZ勝率57.9%一個值得注意的規律是:人類預測者越猶豫的場景(高不確定性、長時間跨度、複雜政治博弈)EchoZ的優勢反而越明顯。這暗示模型在資訊整合和機率校準上的系統性優勢,恰好在人類直覺最不可靠的區域得到了最大程度的釋放。一個持續生長的評測引擎建構評測基準本身並不新鮮,但Echo的做法有一個關鍵差異:它建構的不是一個靜態的題庫,而是一個能夠自動出題、自動結算、持續更新排名的動態系統。為什麼「動態」這件事很重要?拿一道具體的預測題來說:「2026年3月31日收盤時,全球市值最大的公司是那家?」如果模型A在3月1日給出了預測,模型B在3月28日給出了預測,兩者的正確率能直接比較嗎?顯然不能。越接近結算時間,可用資訊越多,預測難度越低。這就是現有預測基準的第一個結構性問題:時序不對稱。第二個問題是題源過於單一:現有基準的題目幾乎全部來自預測市場,偏向容易結算的二元問題,大量來自專業領域和新興話題的預測需求被遺漏了。Echo Leaderboard 的架構正是圍繞這兩個問題展開的。整套系統可以拆解為四個階段的持續循環:Echo 評測引擎建構流程第一步,資料採集。三條資料管道同時運行。第一條對接Polymarket等預測市場,篩選有明確結算規則和高品質共識訊號的合約。第二條面向開放域,抓取Google Trends等即時趨勢,自動生成關於尚未發生事件的預測問題,由agent持續搜尋進展並自動結算。第三條來自真實專業場景:科研、工程、醫療等領域的專家將自己工作流中有價值的預測題貢獻到系統中,並在預定時間點給出權威判定。從Polymarket上的大眾共識到實驗室裡的專家判斷,三條管道覆蓋了一個相當完整的預測光譜。第二步,預測點調度。每道題不只做一次預測。系統使用對數調度演算法,根據題目的結算周期長度分配多個prediction points(預測時間點),既保證了生命周期內的覆蓋密度,又控制了計算開銷。第三步,對戰建構。這是解決時序不對稱問題的關鍵環節。評測使用point-aligned Elo機制:嚴格只比較「同一道題、同一預測時間點」的結果。所有參賽模型在完全相同的資訊上下文下對決,公平性由此建立。第四步,Elo評分更新。基於Bradley-Terry MLE演算法計算全域排名。實驗資料顯示,這套框架對新加入模型的排名收斂速度是傳統Avg Brier方法的2.7倍。模型排名收斂速度對比這四步構成一個不斷循環的閉環:新題目持續流入,新的預測點持續觸發,對戰持續發生,排行榜持續更新。用一句話概括:Echo造了一把動態校準的尺子,而這把尺子本身也在不停生長。Train-on-Future:當推理過程本身成為訓練訊號評測引擎解決了「怎麼量」的問題,接下來要回答的是「怎麼訓」。Echo 的訓練流程同樣是一套結構化的系統,UniPat稱之為Train-on-Future範式,由三個核心機制組成。在展開之前,有必要先理解傳統路徑(Train-on-Past)為什麼走不通。用歷史事件的已知結果來訓練預測模型,面臨兩個很難繞過的困難。第一個是工程悖論:網際網路內容持續更新,用過去的事件做訓練題時,模型在搜尋網頁的過程中幾乎必然會撞上包含答案的資訊,資料洩露在工程實現上極難杜絕。第二個是結果導向偏差:現實事件充滿隨機性,一個邏輯嚴密的分析可能因為黑天鵝事件而給出「錯誤」答案,一個粗糙的猜測可能碰巧命中。直接用最終結果做訓練訊號,模型很容易過擬合到噪聲上。Train-on-Future 的三個機制分別瞄準了這些問題:機制一:動態問題合成。與使用歷史題庫不同,Echo通過一條自動化管道,持續從即時資料流中生成關於未來事件的高資訊量預測問題。因為每道題都關乎尚未發生的事件,訓練天然不存在資料洩露的問題。機制二:Automated Rubric Search。這是整個訓練範式中最有技術含量的部分。Echo的做法是:把訓練訊號建立在推理過程的質量上,而非最終預測的對錯。但隨之而來的問題是,「好的推理過程」該如何定義?舉一個體育預測領域的具體例子。Echo的Rubric中有一個維度叫做「Precursor and External Catalyst Evaluation」,評估模型是否利用高度相關的先行訊號或外部驅動因素。得5分的標準是:識別具體的近期或即將發生的催化因素(如關鍵球員回歸、連續客場結束、關鍵對位變化),並分析這些因素與比賽結果之間的歷史關聯。得 1 分的標準是:僅泛泛提及「狀態不錯」或「士氣提升」等模糊因素,而未繫結具體可驗證事件。另一個維度是「Multi-Factor Causal Synthesis」,評估模型是否將多個獨立因素整合為一個有因果結構的預測結論。得5分的標準是:明確整合至少三個相互獨立的因素(如傷病情況、近期狀態、主客場表現、賠率基線),並解釋這些因素如何相互作用(如傷病削弱進攻效率,而主場優勢部分避險該影響),最終形成一個加權後的整體判斷。得1分的標準是:僅基於單一因素(如「某隊最近連勝」)直接得出結論,或簡單羅列資訊而沒有解釋各因素之間的作用關係。總結來說,這兩個維度分別關注模型是否能夠在時間維度上引入可量化的前瞻性的關鍵變化,並在同一時點上將這些變化與既有資訊整合為結構化的因果判斷,從而提升預測的完整性與動態適應能力。模型按rubrics打分的排名與Elo排名相關係數隨rubrics質量提升而提升。這些維度高度具體,顯然不是泛泛而談的「推理質量」。但靠人工設計也走不遠,預測領域噪聲極高,不同領域的邏輯差異很大。Echo把這個問題轉化成了一個資料驅動的搜尋任務:由LLM生成候選評分標準(rubric),每一輪基於上一輪的反饋進行迭代,搜尋目標是讓rubric產生的模型排名與真實Elo排名之間的Spearman ρ最大化。搜尋按領域獨立進行,政治領域和體育領域各自搜尋出20個評分維度。實驗資料顯示,rubric的評估質量在迭代過程中持續攀升。機制三:Map-Reduce Agent架構。訓練完成後,EchoZ-1.0在推理階段採用分佈式的Map-Reduce流程。Map階段將一個宏觀預測問題分解為多個正交子任務,派出多個agent平行完成資訊採集和領域推理;Reduce階段由聚合節點處理跨源衝突、對齊因果鏈,輸出最終的機率判斷。這個循環支援多輪自適應迭代,直到資訊覆蓋度和推理深度趨於穩定。這套訓練範式的本質可以這樣理解:不僅考察模型猜對了沒有,也考察模型的分析過程是不是優秀。而「評價分析過程」這件事本身,也由這個系統自動完成。值得留意的下一步據瞭解,UniPat計畫將EchoZ-1.0的預測能力封裝為一套AI-native Prediction API對外開放。從部落格已披露的技術架構來看,這套API將支援自然語言形式的預測問題輸入,返回包含機率分佈、分層證據鏈、反事實脆弱性評估和監測建議的完整結構化報告,每份報告由多輪Map-Reduce agent對即時網路證據循環檢索和推理後生成。UniPat在官網上為Echo寫下了這樣一句話:「The future is no longer a probability you guess — it is a parameter you integrate.」當預測從一種直覺判斷變成一個可呼叫、可整合的參數,它能嵌入的決策場景,金融市場、演算法交易、企業戰略,遠比當前看到的要多。UniPat為Echo定義了四個關鍵詞:General、Evaluable、Trainable,以及Profitable。而落地的效果,則需要期待API的正式上線。 (新智元)